<!DOCTYPE html>
<html lang=zh>
<head>
    <!-- hexo-inject:begin --><!-- hexo-inject:end --><!-- so meta -->
    <meta charset="utf-8">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="HandheldFriendly" content="True">
    <meta name="viewport" content="width=device-width, initial-scale=1, maximum-scale=5" />
    <meta name="description" content="chapter 2. 模型选择和评估Q1：什么模型才是好的模型？A1：泛化能力强的（即泛化误差小的）模型是更好的模型Q2：怎样知道模型的泛化能力？A2：思路：将数据集分为训练&#x2F;验证集，在训练集上训练模型，在验证集上跑模型得到的预测误差近似认为是泛化误差Q3：具体来说，应该怎样对数据集进行划分？A3：常用三种划分方法：  hand-out: 直接按比例划分 k-fold：k折交叉验证，特殊形式：留一">
<meta property="og:type" content="article">
<meta property="og:title" content="周志华《机器学习》读书笔记">
<meta property="og:url" content="https://hillbamboo.gitee.io/2018/03/04/zzh-ML/index.html">
<meta property="og:site_name" content="拿铁轮的自留地">
<meta property="og:description" content="chapter 2. 模型选择和评估Q1：什么模型才是好的模型？A1：泛化能力强的（即泛化误差小的）模型是更好的模型Q2：怎样知道模型的泛化能力？A2：思路：将数据集分为训练&#x2F;验证集，在训练集上训练模型，在验证集上跑模型得到的预测误差近似认为是泛化误差Q3：具体来说，应该怎样对数据集进行划分？A3：常用三种划分方法：  hand-out: 直接按比例划分 k-fold：k折交叉验证，特殊形式：留一">
<meta property="og:locale" content="zh_CN">
<meta property="article:published_time" content="2018-03-04T11:48:50.000Z">
<meta property="article:modified_time" content="2021-05-31T23:57:54.884Z">
<meta property="article:author" content="拿铁轮">
<meta property="article:tag" content="ML">
<meta name="twitter:card" content="summary">
    
    
      
        
          <link rel="shortcut icon" href="/images/favicon.ico">
        
      
      
        
          <link rel="icon" type="image/png" href="/images/favicon-192x192.png" sizes="192x192">
        
      
      
        
          <link rel="apple-touch-icon" sizes="180x180" href="/images/apple-touch-icon.png">
        
      
    
    <!-- title -->
    <title>周志华《机器学习》读书笔记</title>
    <!-- styles -->
    
<link rel="stylesheet" href="/css/style.css">

    <!-- persian styles -->
    
    <!-- rss -->
    
    
      <link rel="alternate" href="/true" title="拿铁轮的自留地" type="application/atom+xml" />
    
	<!-- mathjax -->
	
<meta name="generator" content="Hexo 4.2.1"><!-- hexo-inject:begin --><!-- hexo-inject:end --></head>

<body class="max-width mx-auto px3 ltr">
    
      <!-- hexo-inject:begin --><!-- hexo-inject:end --><div id="header-post">
  <a id="menu-icon" href="#" aria-label="目录"><i class="fas fa-bars fa-lg"></i></a>
  <a id="menu-icon-tablet" href="#" aria-label="目录"><i class="fas fa-bars fa-lg"></i></a>
  <a id="top-icon-tablet" href="#" aria-label="顶部" onclick="$('html, body').animate({ scrollTop: 0 }, 'fast');" style="display:none;"><i class="fas fa-chevron-up fa-lg"></i></a>
  <span id="menu">
    <span id="nav">
      <ul>
        <!--
       --><li><a href="/">首页</a></li><!--
     --><!--
       --><li><a href="/about/">关于</a></li><!--
     --><!--
       --><li><a href="/archives/">归档</a></li><!--
     --><!--
       --><li><a href="/categories/">分类</a></li><!--
     --><!--
       --><li><a href="/tags/">标签</a></li><!--
     --><!--
       --><li><a href="/search/">搜索</a></li><!--
     -->
      </ul>
    </span>
    <br/>
    <span id="actions">
      <ul>
        
        <li><a class="icon" aria-label="上一篇" href="/2019/02/27/heap-heapsort/"><i class="fas fa-chevron-left" aria-hidden="true" onmouseover="$('#i-prev').toggle();" onmouseout="$('#i-prev').toggle();"></i></a></li>
        
        
        <li><a class="icon" aria-label="下一篇" href="/2017/05/22/pydoc01/"><i class="fas fa-chevron-right" aria-hidden="true" onmouseover="$('#i-next').toggle();" onmouseout="$('#i-next').toggle();"></i></a></li>
        
        <li><a class="icon" aria-label="返回顶部" href="#" onclick="$('html, body').animate({ scrollTop: 0 }, 'fast');"><i class="fas fa-chevron-up" aria-hidden="true" onmouseover="$('#i-top').toggle();" onmouseout="$('#i-top').toggle();"></i></a></li>
        <li><a class="icon" aria-label="分享文章" href="#"><i class="fas fa-share-alt" aria-hidden="true" onmouseover="$('#i-share').toggle();" onmouseout="$('#i-share').toggle();" onclick="$('#share').toggle();return false;"></i></a></li>
      </ul>
      <span id="i-prev" class="info" style="display:none;">上一篇</span>
      <span id="i-next" class="info" style="display:none;">下一篇</span>
      <span id="i-top" class="info" style="display:none;">返回顶部</span>
      <span id="i-share" class="info" style="display:none;">分享文章</span>
    </span>
    <br/>
    <div id="share" style="display: none">
      <ul>
  <li><a class="icon" href="http://www.facebook.com/sharer.php?u=https://hillbamboo.gitee.io/2018/03/04/zzh-ML/" target="_blank" rel="noopener"><i class="fab fa-facebook " aria-hidden="true"></i></a></li>
  <li><a class="icon" href="https://twitter.com/share?url=https://hillbamboo.gitee.io/2018/03/04/zzh-ML/&text=周志华《机器学习》读书笔记" target="_blank" rel="noopener"><i class="fab fa-twitter " aria-hidden="true"></i></a></li>
  <li><a class="icon" href="http://www.linkedin.com/shareArticle?url=https://hillbamboo.gitee.io/2018/03/04/zzh-ML/&title=周志华《机器学习》读书笔记" target="_blank" rel="noopener"><i class="fab fa-linkedin " aria-hidden="true"></i></a></li>
  <li><a class="icon" href="https://service.weibo.com/share/share.php?url=https://hillbamboo.gitee.io/2018/03/04/zzh-ML/&title=周志华《机器学习》读书笔记" target="_blank" rel="noopener"><i class="fab fa-weibo " aria-hidden="true"></i></a></li>
  <!-- <li><a class="icon" href="https://pinterest.com/pin/create/bookmarklet/?url=https://hillbamboo.gitee.io/2018/03/04/zzh-ML/&is_video=false&description=周志华《机器学习》读书笔记" target="_blank" rel="noopener"><i class="fab fa-pinterest " aria-hidden="true"></i></a></li> -->
  <li><a class="icon" href="mailto:?subject=周志华《机器学习》读书笔记&body=Check out this article: https://hillbamboo.gitee.io/2018/03/04/zzh-ML/"><i class="fas fa-envelope " aria-hidden="true"></i></a></li>
  <!-- <li><a class="icon" href="https://getpocket.com/save?url=https://hillbamboo.gitee.io/2018/03/04/zzh-ML/&title=周志华《机器学习》读书笔记" target="_blank" rel="noopener"><i class="fab fa-get-pocket " aria-hidden="true"></i></a></li>
  <li><a class="icon" href="http://reddit.com/submit?url=https://hillbamboo.gitee.io/2018/03/04/zzh-ML/&title=周志华《机器学习》读书笔记" target="_blank" rel="noopener"><i class="fab fa-reddit " aria-hidden="true"></i></a></li>
  <li><a class="icon" href="http://www.stumbleupon.com/submit?url=https://hillbamboo.gitee.io/2018/03/04/zzh-ML/&title=周志华《机器学习》读书笔记" target="_blank" rel="noopener"><i class="fab fa-stumbleupon " aria-hidden="true"></i></a></li>
  <li><a class="icon" href="http://digg.com/submit?url=https://hillbamboo.gitee.io/2018/03/04/zzh-ML/&title=周志华《机器学习》读书笔记" target="_blank" rel="noopener"><i class="fab fa-digg " aria-hidden="true"></i></a></li>
  <li><a class="icon" href="http://www.tumblr.com/share/link?url=https://hillbamboo.gitee.io/2018/03/04/zzh-ML/&name=周志华《机器学习》读书笔记&description=" target="_blank" rel="noopener"><i class="fab fa-tumblr " aria-hidden="true"></i></a></li>
  <li><a class="icon" href="https://news.ycombinator.com/submitlink?u=https://hillbamboo.gitee.io/2018/03/04/zzh-ML/&t=周志华《机器学习》读书笔记" target="_blank" rel="noopener"><i class="fab fa-hacker-news " aria-hidden="true"></i></a></li> -->
</ul>



    </div>
    <div id="toc">
      <ol class="toc"><li class="toc-item toc-level-1"><a class="toc-link" href="#chapter-2-模型选择和评估"><span class="toc-number">1.</span> <span class="toc-text">chapter 2. 模型选择和评估</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#Q1：什么模型才是好的模型？"><span class="toc-number">1.0.1.</span> <span class="toc-text">Q1：什么模型才是好的模型？</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#A1：泛化能力强的（即泛化误差小的）模型是更好的模型"><span class="toc-number">1.0.2.</span> <span class="toc-text">A1：泛化能力强的（即泛化误差小的）模型是更好的模型</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#Q2：怎样知道模型的泛化能力？"><span class="toc-number">1.0.3.</span> <span class="toc-text">Q2：怎样知道模型的泛化能力？</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#A2：思路：将数据集分为训练-验证集，在训练集上训练模型，在验证集上跑模型得到的预测误差近似认为是泛化误差"><span class="toc-number">1.0.4.</span> <span class="toc-text">A2：思路：将数据集分为训练&#x2F;验证集，在训练集上训练模型，在验证集上跑模型得到的预测误差近似认为是泛化误差</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#Q3：具体来说，应该怎样对数据集进行划分？"><span class="toc-number">1.0.5.</span> <span class="toc-text">Q3：具体来说，应该怎样对数据集进行划分？</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#Q4：如何度量模型的预测误差？（怎样才能判断一个模型表现得更好？）"><span class="toc-number">1.0.6.</span> <span class="toc-text">Q4：如何度量模型的预测误差？（怎样才能判断一个模型表现得更好？）</span></a></li></ol></li></ol></li><li class="toc-item toc-level-1"><a class="toc-link" href="#chapter-3-线性模型"><span class="toc-number">2.</span> <span class="toc-text">chapter 3. 线性模型</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#Q1：什么是线性模型？什么是广义线性模型？"><span class="toc-number">2.0.1.</span> <span class="toc-text">Q1：什么是线性模型？什么是广义线性模型？</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#Q2：怎样从二分类问题推广到多分类问题？"><span class="toc-number">2.0.2.</span> <span class="toc-text">Q2：怎样从二分类问题推广到多分类问题？</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#Q3：怎样处理类别不平衡问题？"><span class="toc-number">2.0.3.</span> <span class="toc-text">Q3：怎样处理类别不平衡问题？</span></a></li></ol></li></ol></li><li class="toc-item toc-level-1"><a class="toc-link" href="#chapter-4-决策树"><span class="toc-number">3.</span> <span class="toc-text">chapter 4. 决策树</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#Q1：什么是决策树？"><span class="toc-number">3.0.1.</span> <span class="toc-text">Q1：什么是决策树？</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#Q2：怎样生成一棵决策树？"><span class="toc-number">3.0.2.</span> <span class="toc-text">Q2：怎样生成一棵决策树？</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#Q3：怎样对决策树进行剪枝？"><span class="toc-number">3.0.3.</span> <span class="toc-text">Q3：怎样对决策树进行剪枝？</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#Q4：怎样处理缺失值和连续值？"><span class="toc-number">3.0.4.</span> <span class="toc-text">Q4：怎样处理缺失值和连续值？</span></a></li></ol></li><li class="toc-item toc-level-2"><a class="toc-link" href="#Notes"><span class="toc-number">3.1.</span> <span class="toc-text">Notes</span></a></li></ol></li><li class="toc-item toc-level-1"><a class="toc-link" href="#chapter-8-集成学习"><span class="toc-number">4.</span> <span class="toc-text">chapter 8. 集成学习</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#Q1：什么是模型融合？"><span class="toc-number">4.0.1.</span> <span class="toc-text">Q1：什么是模型融合？</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#A1："><span class="toc-number">4.0.2.</span> <span class="toc-text">A1：</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#Q2：为什么模型融合是可行的？"><span class="toc-number">4.0.3.</span> <span class="toc-text">Q2：为什么模型融合是可行的？</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#A2："><span class="toc-number">4.0.4.</span> <span class="toc-text">A2：</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#Q3：都有哪些模型融合的方法？"><span class="toc-number">4.0.5.</span> <span class="toc-text">Q3：都有哪些模型融合的方法？</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#A3："><span class="toc-number">4.0.6.</span> <span class="toc-text">A3：</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#Q4：什么是Boosting？"><span class="toc-number">4.0.7.</span> <span class="toc-text">Q4：什么是Boosting？</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#A4："><span class="toc-number">4.0.8.</span> <span class="toc-text">A4：</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#Q5：什么是Bagging？"><span class="toc-number">4.0.9.</span> <span class="toc-text">Q5：什么是Bagging？</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#A5："><span class="toc-number">4.0.10.</span> <span class="toc-text">A5：</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#Q6：怎样组合多个单模型？"><span class="toc-number">4.0.11.</span> <span class="toc-text">Q6：怎样组合多个单模型？</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#A6：常用1、平均法，2、投票法，3、学习法（stacking）"><span class="toc-number">4.0.12.</span> <span class="toc-text">A6：常用1、平均法，2、投票法，3、学习法（stacking）</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#Q7：什么是模型间的差异性？"><span class="toc-number">4.0.13.</span> <span class="toc-text">Q7：什么是模型间的差异性？</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#A7：模型的多样性（差别有多么的大）"><span class="toc-number">4.0.14.</span> <span class="toc-text">A7：模型的多样性（差别有多么的大）</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#Q8：怎样进行差异性的度量？"><span class="toc-number">4.0.15.</span> <span class="toc-text">Q8：怎样进行差异性的度量？</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#A8：成对型差异性度量指标，有助于绘图观察：不合度量，相关系数，Q-统计量，k-统计量"><span class="toc-number">4.0.16.</span> <span class="toc-text">A8：成对型差异性度量指标，有助于绘图观察：不合度量，相关系数，Q-统计量，k-统计量</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#Q9：怎样增强模型间的差异性？"><span class="toc-number">4.0.17.</span> <span class="toc-text">Q9：怎样增强模型间的差异性？</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#A9：有如下几种常用方法：1、数据样本扰动，2、特征扰动，3、输出扰动，4、算法参数扰动"><span class="toc-number">4.0.18.</span> <span class="toc-text">A9：有如下几种常用方法：1、数据样本扰动，2、特征扰动，3、输出扰动，4、算法参数扰动</span></a></li></ol></li><li class="toc-item toc-level-2"><a class="toc-link" href="#Notes-1"><span class="toc-number">4.1.</span> <span class="toc-text">Notes</span></a></li></ol></li></ol>
    </div>
  </span>
</div>

    
    <div class="content index py4">
        
        <article class="post" itemscope itemtype="http://schema.org/BlogPosting">
  <header>
    
    <h1 class="posttitle" itemprop="name headline">
        周志华《机器学习》读书笔记
    </h1>



    <div class="meta">
      <span class="author" itemprop="author" itemscope itemtype="http://schema.org/Person">
        <span itemprop="name">拿铁轮</span>
      </span>
      
    <div class="postdate">
      
        <time datetime="2018-03-04T11:48:50.000Z" itemprop="datePublished">2018-03-04</time>
        
      
    </div>


      

      
    <div class="article-tag">
        <i class="fas fa-tag"></i>
        <a class="tag-link" href="/tags/ML/" rel="tag">ML</a>
    </div>


    </div>
  </header>
  

  <div class="content" itemprop="articleBody">
    <h1 id="chapter-2-模型选择和评估"><a href="#chapter-2-模型选择和评估" class="headerlink" title="chapter 2. 模型选择和评估"></a>chapter 2. 模型选择和评估</h1><h3 id="Q1：什么模型才是好的模型？"><a href="#Q1：什么模型才是好的模型？" class="headerlink" title="Q1：什么模型才是好的模型？"></a>Q1：什么模型才是好的模型？</h3><h3 id="A1：泛化能力强的（即泛化误差小的）模型是更好的模型"><a href="#A1：泛化能力强的（即泛化误差小的）模型是更好的模型" class="headerlink" title="A1：泛化能力强的（即泛化误差小的）模型是更好的模型"></a>A1：泛化能力强的（即泛化误差小的）模型是更好的模型</h3><h3 id="Q2：怎样知道模型的泛化能力？"><a href="#Q2：怎样知道模型的泛化能力？" class="headerlink" title="Q2：怎样知道模型的泛化能力？"></a>Q2：怎样知道模型的泛化能力？</h3><h3 id="A2：思路：将数据集分为训练-验证集，在训练集上训练模型，在验证集上跑模型得到的预测误差近似认为是泛化误差"><a href="#A2：思路：将数据集分为训练-验证集，在训练集上训练模型，在验证集上跑模型得到的预测误差近似认为是泛化误差" class="headerlink" title="A2：思路：将数据集分为训练/验证集，在训练集上训练模型，在验证集上跑模型得到的预测误差近似认为是泛化误差"></a>A2：思路：将数据集分为训练/验证集，在训练集上训练模型，在验证集上跑模型得到的预测误差近似认为是泛化误差</h3><h3 id="Q3：具体来说，应该怎样对数据集进行划分？"><a href="#Q3：具体来说，应该怎样对数据集进行划分？" class="headerlink" title="Q3：具体来说，应该怎样对数据集进行划分？"></a>Q3：具体来说，应该怎样对数据集进行划分？</h3><p>A3：常用三种划分方法：</p>
<ol>
<li>hand-out: 直接按比例划分</li>
<li>k-fold：k折交叉验证，特殊形式：留一法</li>
<li>boostrap sampling: 放回抽样</li>
</ol>
<h3 id="Q4：如何度量模型的预测误差？（怎样才能判断一个模型表现得更好？）"><a href="#Q4：如何度量模型的预测误差？（怎样才能判断一个模型表现得更好？）" class="headerlink" title="Q4：如何度量模型的预测误差？（怎样才能判断一个模型表现得更好？）"></a>Q4：如何度量模型的预测误差？（怎样才能判断一个模型表现得更好？）</h3><p>A4：有很多的量化指标可以用来度量模型的误差，常用的有：错误率、正确率、查全率、查准率、F-1、<br>ROC、AUC、confusion matrix、cost matrix、F-beta、cost-sensitive curve、P-R图、BEP、cost curve等等</p>
<p>[Notes]</p>
<ol>
<li>过拟合无法避免，我们只能缓解或是降低其发生的风险</li>
<li>训练/验证集要能够充分反映数据的原始规律</li>
<li>在不少的应用任务中，参数调得好不好往往对最终模型性能有着关键性影响</li>
<li>同一算法，不同参数，会产生不同的模型；不同算法，不同参数，会产生更多不同的模型</li>
</ol>
<p>[Tips]</p>
<ol>
<li>在验证集上进行完了模型选择和调参后，记得要在全体数据集（训练+验证集）上在跑一遍模型</li>
<li>直观理解查全率、查准率、F-1（P30）</li>
<li>记住 bias-varance 平衡的那张图</li>
</ol>
<h1 id="chapter-3-线性模型"><a href="#chapter-3-线性模型" class="headerlink" title="chapter 3. 线性模型"></a>chapter 3. 线性模型</h1><h3 id="Q1：什么是线性模型？什么是广义线性模型？"><a href="#Q1：什么是线性模型？什么是广义线性模型？" class="headerlink" title="Q1：什么是线性模型？什么是广义线性模型？"></a>Q1：什么是线性模型？什么是广义线性模型？</h3><p>A1：线性模型：形如 y_hat = W_T<em>X+b<br>广义线性模型：形如 y_hat = g(W_T</em>X+b)</p>
<h3 id="Q2：怎样从二分类问题推广到多分类问题？"><a href="#Q2：怎样从二分类问题推广到多分类问题？" class="headerlink" title="Q2：怎样从二分类问题推广到多分类问题？"></a>Q2：怎样从二分类问题推广到多分类问题？</h3><p>A2：思路：通过组合多个二分类器，得到一个多分类器<br>具体：</p>
<ol>
<li>OVO：对于N个类别，训练 N(N-1)/2 个分类器</li>
<li>OVR：对于N个类别，训练 N 个分类器</li>
<li>MvM: 常用 ECOC技术</li>
</ol>
<h3 id="Q3：怎样处理类别不平衡问题？"><a href="#Q3：怎样处理类别不平衡问题？" class="headerlink" title="Q3：怎样处理类别不平衡问题？"></a>Q3：怎样处理类别不平衡问题？</h3><p>A3：</p>
<ol>
<li>欠抽样（undersampling）: 丢弃样本（但是不能随便丢弃，否则会丢失重要信息）</li>
<li>过抽样（oversampling）: 增加样本（但是不能简单重复，否则会造成过拟合）</li>
<li>阈值移动（threshold-moving）: 再缩放/再平衡</li>
</ol>
<h1 id="chapter-4-决策树"><a href="#chapter-4-决策树" class="headerlink" title="chapter 4. 决策树"></a>chapter 4. 决策树</h1><h3 id="Q1：什么是决策树？"><a href="#Q1：什么是决策树？" class="headerlink" title="Q1：什么是决策树？"></a>Q1：什么是决策树？</h3><p>A1：形如 【此处应该有图】</p>
<h3 id="Q2：怎样生成一棵决策树？"><a href="#Q2：怎样生成一棵决策树？" class="headerlink" title="Q2：怎样生成一棵决策树？"></a>Q2：怎样生成一棵决策树？</h3><p>A2：不同的算法基于不同的原则，如ID3基于信息增益原则，C4.5基于增益率原则，CART基于基尼指数</p>
<h3 id="Q3：怎样对决策树进行剪枝？"><a href="#Q3：怎样对决策树进行剪枝？" class="headerlink" title="Q3：怎样对决策树进行剪枝？"></a>Q3：怎样对决策树进行剪枝？</h3><p>A3：常用两种剪枝策略：<br>1、预剪枝：训练时间短，但易于欠拟合<br>2、后剪枝：训练时间长，但不易欠拟合</p>
<h3 id="Q4：怎样处理缺失值和连续值？"><a href="#Q4：怎样处理缺失值和连续值？" class="headerlink" title="Q4：怎样处理缺失值和连续值？"></a>Q4：怎样处理缺失值和连续值？</h3><p>A4：缺失值：C4.5<br>连续值：连续变量离散化，常用二分法</p>
<h2 id="Notes"><a href="#Notes" class="headerlink" title="Notes"></a>Notes</h2><ol>
<li>为了生成一棵决策树，就要合理的选择特征作为一系列的决策变量，为了怎样合理的选择特征这一问题，诞生了一系列的决策树算法</li>
<li>信息增益原则对可取值数目较多的特征有偏好；增益率原则对于可取值数目较少的特征有偏好</li>
<li>决策树决定的决策边界有一个明显的特征：轴平行</li>
<li>单决策树：【此处应该有图】；多变量决策树：【此处应该有图】</li>
</ol>
<h1 id="chapter-8-集成学习"><a href="#chapter-8-集成学习" class="headerlink" title="chapter 8. 集成学习"></a>chapter 8. 集成学习</h1><h3 id="Q1：什么是模型融合？"><a href="#Q1：什么是模型融合？" class="headerlink" title="Q1：什么是模型融合？"></a>Q1：什么是模型融合？</h3><h3 id="A1："><a href="#A1：" class="headerlink" title="A1："></a>A1：</h3><p>通过某种方式训练和组合多个模型，最终得到一个总的模型</p>
<h3 id="Q2：为什么模型融合是可行的？"><a href="#Q2：为什么模型融合是可行的？" class="headerlink" title="Q2：为什么模型融合是可行的？"></a>Q2：为什么模型融合是可行的？</h3><h3 id="A2："><a href="#A2：" class="headerlink" title="A2："></a>A2：</h3><p>“好而不同”的单个模型，通过某种有效的方式组合在一起，是有可能得到一个比单模型更好的融合模型</p>
<h3 id="Q3：都有哪些模型融合的方法？"><a href="#Q3：都有哪些模型融合的方法？" class="headerlink" title="Q3：都有哪些模型融合的方法？"></a>Q3：都有哪些模型融合的方法？</h3><h3 id="A3："><a href="#A3：" class="headerlink" title="A3："></a>A3：</h3><p>1、Boosting（串行）：【此处应该有图】<br>2、Bagging（并行）: 【此处应该有图】</p>
<h3 id="Q4：什么是Boosting？"><a href="#Q4：什么是Boosting？" class="headerlink" title="Q4：什么是Boosting？"></a>Q4：什么是Boosting？</h3><h3 id="A4："><a href="#A4：" class="headerlink" title="A4："></a>A4：</h3><p>STEP1. 先从初试训练集训练出一个单模型<br>STEP2. 根据单模型的表现对训练数据分布进行调整，使得先前单模型做错的样本在后续的训练中得到更多的关注<br>STEP3. 根据调整后的训练数据训练下一个单模型，返回STEP2，直到训练得到了总共T个单模型<br>STEP4. T个单模型加权平均</p>
<h3 id="Q5：什么是Bagging？"><a href="#Q5：什么是Bagging？" class="headerlink" title="Q5：什么是Bagging？"></a>Q5：什么是Bagging？</h3><h3 id="A5："><a href="#A5：" class="headerlink" title="A5："></a>A5：</h3><p>STEP1. 采样出T个训练数据集<br>STEP2. 基于各个采样集单独训练模型<br>STEP3. 模型融合</p>
<h3 id="Q6：怎样组合多个单模型？"><a href="#Q6：怎样组合多个单模型？" class="headerlink" title="Q6：怎样组合多个单模型？"></a>Q6：怎样组合多个单模型？</h3><h3 id="A6：常用1、平均法，2、投票法，3、学习法（stacking）"><a href="#A6：常用1、平均法，2、投票法，3、学习法（stacking）" class="headerlink" title="A6：常用1、平均法，2、投票法，3、学习法（stacking）"></a>A6：常用1、平均法，2、投票法，3、学习法（stacking）</h3><h3 id="Q7：什么是模型间的差异性？"><a href="#Q7：什么是模型间的差异性？" class="headerlink" title="Q7：什么是模型间的差异性？"></a>Q7：什么是模型间的差异性？</h3><h3 id="A7：模型的多样性（差别有多么的大）"><a href="#A7：模型的多样性（差别有多么的大）" class="headerlink" title="A7：模型的多样性（差别有多么的大）"></a>A7：模型的多样性（差别有多么的大）</h3><h3 id="Q8：怎样进行差异性的度量？"><a href="#Q8：怎样进行差异性的度量？" class="headerlink" title="Q8：怎样进行差异性的度量？"></a>Q8：怎样进行差异性的度量？</h3><h3 id="A8：成对型差异性度量指标，有助于绘图观察：不合度量，相关系数，Q-统计量，k-统计量"><a href="#A8：成对型差异性度量指标，有助于绘图观察：不合度量，相关系数，Q-统计量，k-统计量" class="headerlink" title="A8：成对型差异性度量指标，有助于绘图观察：不合度量，相关系数，Q-统计量，k-统计量"></a>A8：成对型差异性度量指标，有助于绘图观察：不合度量，相关系数，Q-统计量，k-统计量</h3><h3 id="Q9：怎样增强模型间的差异性？"><a href="#Q9：怎样增强模型间的差异性？" class="headerlink" title="Q9：怎样增强模型间的差异性？"></a>Q9：怎样增强模型间的差异性？</h3><h3 id="A9：有如下几种常用方法：1、数据样本扰动，2、特征扰动，3、输出扰动，4、算法参数扰动"><a href="#A9：有如下几种常用方法：1、数据样本扰动，2、特征扰动，3、输出扰动，4、算法参数扰动" class="headerlink" title="A9：有如下几种常用方法：1、数据样本扰动，2、特征扰动，3、输出扰动，4、算法参数扰动"></a>A9：有如下几种常用方法：1、数据样本扰动，2、特征扰动，3、输出扰动，4、算法参数扰动</h3><h2 id="Notes-1"><a href="#Notes-1" class="headerlink" title="Notes"></a>Notes</h2><ol>
<li>模型融合中的核心问题：1、怎样训练多个单模型？2、怎样组合多个单模型？</li>
<li>Boosting主要关注降低偏差；Bagging主要关注降低方差；</li>
<li>RF中的k同时使用了数据样本扰动和特征扰动两种方式，且k一般取log_2(d), d是特征的维数</li>
<li>不稳定模型（对数据敏感）：决策树、神经网络<br>稳定模型（对数据不敏感）：SVM、朴素贝叶斯、KNN、线性分类器</li>
</ol>

  </div>
</article>

    <div class="blog-post-comments">
        <div id="disqus_thread">
            <noscript>加载评论需要在浏览器启用 JavaScript 脚本支持。</noscript>
        </div>
    </div>



        
          <div id="footer-post-container">
  <div id="footer-post">

    <div id="nav-footer" style="display: none">
      <ul>
         
          <li><a href="/">首页</a></li>
         
          <li><a href="/about/">关于</a></li>
         
          <li><a href="/archives/">归档</a></li>
         
          <li><a href="/categories/">分类</a></li>
         
          <li><a href="/tags/">标签</a></li>
         
          <li><a href="/search/">搜索</a></li>
        
      </ul>
    </div>

    <div id="toc-footer" style="display: none">
      <ol class="toc"><li class="toc-item toc-level-1"><a class="toc-link" href="#chapter-2-模型选择和评估"><span class="toc-number">1.</span> <span class="toc-text">chapter 2. 模型选择和评估</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#Q1：什么模型才是好的模型？"><span class="toc-number">1.0.1.</span> <span class="toc-text">Q1：什么模型才是好的模型？</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#A1：泛化能力强的（即泛化误差小的）模型是更好的模型"><span class="toc-number">1.0.2.</span> <span class="toc-text">A1：泛化能力强的（即泛化误差小的）模型是更好的模型</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#Q2：怎样知道模型的泛化能力？"><span class="toc-number">1.0.3.</span> <span class="toc-text">Q2：怎样知道模型的泛化能力？</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#A2：思路：将数据集分为训练-验证集，在训练集上训练模型，在验证集上跑模型得到的预测误差近似认为是泛化误差"><span class="toc-number">1.0.4.</span> <span class="toc-text">A2：思路：将数据集分为训练&#x2F;验证集，在训练集上训练模型，在验证集上跑模型得到的预测误差近似认为是泛化误差</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#Q3：具体来说，应该怎样对数据集进行划分？"><span class="toc-number">1.0.5.</span> <span class="toc-text">Q3：具体来说，应该怎样对数据集进行划分？</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#Q4：如何度量模型的预测误差？（怎样才能判断一个模型表现得更好？）"><span class="toc-number">1.0.6.</span> <span class="toc-text">Q4：如何度量模型的预测误差？（怎样才能判断一个模型表现得更好？）</span></a></li></ol></li></ol></li><li class="toc-item toc-level-1"><a class="toc-link" href="#chapter-3-线性模型"><span class="toc-number">2.</span> <span class="toc-text">chapter 3. 线性模型</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#Q1：什么是线性模型？什么是广义线性模型？"><span class="toc-number">2.0.1.</span> <span class="toc-text">Q1：什么是线性模型？什么是广义线性模型？</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#Q2：怎样从二分类问题推广到多分类问题？"><span class="toc-number">2.0.2.</span> <span class="toc-text">Q2：怎样从二分类问题推广到多分类问题？</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#Q3：怎样处理类别不平衡问题？"><span class="toc-number">2.0.3.</span> <span class="toc-text">Q3：怎样处理类别不平衡问题？</span></a></li></ol></li></ol></li><li class="toc-item toc-level-1"><a class="toc-link" href="#chapter-4-决策树"><span class="toc-number">3.</span> <span class="toc-text">chapter 4. 决策树</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#Q1：什么是决策树？"><span class="toc-number">3.0.1.</span> <span class="toc-text">Q1：什么是决策树？</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#Q2：怎样生成一棵决策树？"><span class="toc-number">3.0.2.</span> <span class="toc-text">Q2：怎样生成一棵决策树？</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#Q3：怎样对决策树进行剪枝？"><span class="toc-number">3.0.3.</span> <span class="toc-text">Q3：怎样对决策树进行剪枝？</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#Q4：怎样处理缺失值和连续值？"><span class="toc-number">3.0.4.</span> <span class="toc-text">Q4：怎样处理缺失值和连续值？</span></a></li></ol></li><li class="toc-item toc-level-2"><a class="toc-link" href="#Notes"><span class="toc-number">3.1.</span> <span class="toc-text">Notes</span></a></li></ol></li><li class="toc-item toc-level-1"><a class="toc-link" href="#chapter-8-集成学习"><span class="toc-number">4.</span> <span class="toc-text">chapter 8. 集成学习</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#Q1：什么是模型融合？"><span class="toc-number">4.0.1.</span> <span class="toc-text">Q1：什么是模型融合？</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#A1："><span class="toc-number">4.0.2.</span> <span class="toc-text">A1：</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#Q2：为什么模型融合是可行的？"><span class="toc-number">4.0.3.</span> <span class="toc-text">Q2：为什么模型融合是可行的？</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#A2："><span class="toc-number">4.0.4.</span> <span class="toc-text">A2：</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#Q3：都有哪些模型融合的方法？"><span class="toc-number">4.0.5.</span> <span class="toc-text">Q3：都有哪些模型融合的方法？</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#A3："><span class="toc-number">4.0.6.</span> <span class="toc-text">A3：</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#Q4：什么是Boosting？"><span class="toc-number">4.0.7.</span> <span class="toc-text">Q4：什么是Boosting？</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#A4："><span class="toc-number">4.0.8.</span> <span class="toc-text">A4：</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#Q5：什么是Bagging？"><span class="toc-number">4.0.9.</span> <span class="toc-text">Q5：什么是Bagging？</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#A5："><span class="toc-number">4.0.10.</span> <span class="toc-text">A5：</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#Q6：怎样组合多个单模型？"><span class="toc-number">4.0.11.</span> <span class="toc-text">Q6：怎样组合多个单模型？</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#A6：常用1、平均法，2、投票法，3、学习法（stacking）"><span class="toc-number">4.0.12.</span> <span class="toc-text">A6：常用1、平均法，2、投票法，3、学习法（stacking）</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#Q7：什么是模型间的差异性？"><span class="toc-number">4.0.13.</span> <span class="toc-text">Q7：什么是模型间的差异性？</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#A7：模型的多样性（差别有多么的大）"><span class="toc-number">4.0.14.</span> <span class="toc-text">A7：模型的多样性（差别有多么的大）</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#Q8：怎样进行差异性的度量？"><span class="toc-number">4.0.15.</span> <span class="toc-text">Q8：怎样进行差异性的度量？</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#A8：成对型差异性度量指标，有助于绘图观察：不合度量，相关系数，Q-统计量，k-统计量"><span class="toc-number">4.0.16.</span> <span class="toc-text">A8：成对型差异性度量指标，有助于绘图观察：不合度量，相关系数，Q-统计量，k-统计量</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#Q9：怎样增强模型间的差异性？"><span class="toc-number">4.0.17.</span> <span class="toc-text">Q9：怎样增强模型间的差异性？</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#A9：有如下几种常用方法：1、数据样本扰动，2、特征扰动，3、输出扰动，4、算法参数扰动"><span class="toc-number">4.0.18.</span> <span class="toc-text">A9：有如下几种常用方法：1、数据样本扰动，2、特征扰动，3、输出扰动，4、算法参数扰动</span></a></li></ol></li><li class="toc-item toc-level-2"><a class="toc-link" href="#Notes-1"><span class="toc-number">4.1.</span> <span class="toc-text">Notes</span></a></li></ol></li></ol>
    </div>

    <div id="share-footer" style="display: none">
      <ul>
  <li><a class="icon" href="http://www.facebook.com/sharer.php?u=https://hillbamboo.gitee.io/2018/03/04/zzh-ML/" target="_blank" rel="noopener"><i class="fab fa-facebook fa-lg" aria-hidden="true"></i></a></li>
  <li><a class="icon" href="https://twitter.com/share?url=https://hillbamboo.gitee.io/2018/03/04/zzh-ML/&text=周志华《机器学习》读书笔记" target="_blank" rel="noopener"><i class="fab fa-twitter fa-lg" aria-hidden="true"></i></a></li>
  <li><a class="icon" href="http://www.linkedin.com/shareArticle?url=https://hillbamboo.gitee.io/2018/03/04/zzh-ML/&title=周志华《机器学习》读书笔记" target="_blank" rel="noopener"><i class="fab fa-linkedin fa-lg" aria-hidden="true"></i></a></li>
  <li><a class="icon" href="https://service.weibo.com/share/share.php?url=https://hillbamboo.gitee.io/2018/03/04/zzh-ML/&title=周志华《机器学习》读书笔记" target="_blank" rel="noopener"><i class="fab fa-weibo fa-lg" aria-hidden="true"></i></a></li>
  <!-- <li><a class="icon" href="https://pinterest.com/pin/create/bookmarklet/?url=https://hillbamboo.gitee.io/2018/03/04/zzh-ML/&is_video=false&description=周志华《机器学习》读书笔记" target="_blank" rel="noopener"><i class="fab fa-pinterest fa-lg" aria-hidden="true"></i></a></li> -->
  <li><a class="icon" href="mailto:?subject=周志华《机器学习》读书笔记&body=Check out this article: https://hillbamboo.gitee.io/2018/03/04/zzh-ML/"><i class="fas fa-envelope fa-lg" aria-hidden="true"></i></a></li>
  <!-- <li><a class="icon" href="https://getpocket.com/save?url=https://hillbamboo.gitee.io/2018/03/04/zzh-ML/&title=周志华《机器学习》读书笔记" target="_blank" rel="noopener"><i class="fab fa-get-pocket fa-lg" aria-hidden="true"></i></a></li>
  <li><a class="icon" href="http://reddit.com/submit?url=https://hillbamboo.gitee.io/2018/03/04/zzh-ML/&title=周志华《机器学习》读书笔记" target="_blank" rel="noopener"><i class="fab fa-reddit fa-lg" aria-hidden="true"></i></a></li>
  <li><a class="icon" href="http://www.stumbleupon.com/submit?url=https://hillbamboo.gitee.io/2018/03/04/zzh-ML/&title=周志华《机器学习》读书笔记" target="_blank" rel="noopener"><i class="fab fa-stumbleupon fa-lg" aria-hidden="true"></i></a></li>
  <li><a class="icon" href="http://digg.com/submit?url=https://hillbamboo.gitee.io/2018/03/04/zzh-ML/&title=周志华《机器学习》读书笔记" target="_blank" rel="noopener"><i class="fab fa-digg fa-lg" aria-hidden="true"></i></a></li>
  <li><a class="icon" href="http://www.tumblr.com/share/link?url=https://hillbamboo.gitee.io/2018/03/04/zzh-ML/&name=周志华《机器学习》读书笔记&description=" target="_blank" rel="noopener"><i class="fab fa-tumblr fa-lg" aria-hidden="true"></i></a></li>
  <li><a class="icon" href="https://news.ycombinator.com/submitlink?u=https://hillbamboo.gitee.io/2018/03/04/zzh-ML/&t=周志华《机器学习》读书笔记" target="_blank" rel="noopener"><i class="fab fa-hacker-news fa-lg" aria-hidden="true"></i></a></li> -->
</ul>



    </div>

    <div id="actions-footer">
        <a id="menu" class="icon" href="#" onclick="$('#nav-footer').toggle();return false;"><i class="fas fa-bars fa-lg" aria-hidden="true"></i> 菜单</a>
        <a id="toc" class="icon" href="#" onclick="$('#toc-footer').toggle();return false;"><i class="fas fa-list fa-lg" aria-hidden="true"></i> 目录</a>
        <a id="share" class="icon" href="#" onclick="$('#share-footer').toggle();return false;"><i class="fas fa-share-alt fa-lg" aria-hidden="true"></i> 分享</a>
        <a id="top" style="display:none" class="icon" href="#" onclick="$('html, body').animate({ scrollTop: 0 }, 'fast');"><i class="fas fa-chevron-up fa-lg" aria-hidden="true"></i> 返回顶部</a>
    </div>

  </div>
</div>

        
        <footer id="footer">
  <div class="footer-left">
    Copyright &copy;
    
    
    2017-2022
    拿铁轮
  </div>
  <div class="footer-right">
    <nav>
      <ul>
        <!--
       --><li><a href="/">首页</a></li><!--
     --><!--
       --><li><a href="/about/">关于</a></li><!--
     --><!--
       --><li><a href="/archives/">归档</a></li><!--
     --><!--
       --><li><a href="/categories/">分类</a></li><!--
     --><!--
       --><li><a href="/tags/">标签</a></li><!--
     --><!--
       --><li><a href="/search/">搜索</a></li><!--
     -->
      </ul>
    </nav>
  </div>
</footer>

    </div>
    <!-- styles -->



  <link rel="preload" as="style" href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/5.15.2/css/all.min.css" crossorigin="anonymous" onload="this.onload=null;this.rel='stylesheet'"/>


    <!-- jquery -->
 
  <script src="https://cdnjs.cloudflare.com/ajax/libs/jquery/3.6.0/jquery.min.js" crossorigin="anonymous"></script> 




<!-- clipboard -->

  
    <script src="https://cdnjs.cloudflare.com/ajax/libs/clipboard.js/2.0.7/clipboard.min.js" crossorigin="anonymous"></script> 
  
  <script type="text/javascript">
  $(function() {
    // copy-btn HTML
    var btn = "<span class=\"btn-copy tooltipped tooltipped-sw\" aria-label=\"复制到粘贴板！\">";
    btn += '<i class="far fa-clone"></i>';
    btn += '</span>'; 
    // mount it!
    $(".highlight table").before(btn);
    var clip = new ClipboardJS('.btn-copy', {
      text: function(trigger) {
        return Array.from(trigger.nextElementSibling.querySelectorAll('.code')).reduce((str,it)=>str+it.innerText+'\n','')
      }
    });
    clip.on('success', function(e) {
      e.trigger.setAttribute('aria-label', "复制成功！");
      e.clearSelection();
    })
  })
  </script>


<script src="/js/main.js"></script>

<!-- search -->

<!-- Google Analytics -->

<!-- Baidu Analytics -->

<!-- Cloudflare Analytics -->

<!-- Umami Analytics -->

<!-- Disqus Comments -->

    <script type="text/javascript">
        var disqus_shortname = 'cactus-1';

        (function(){
            var dsq = document.createElement('script');
            dsq.type = 'text/javascript';
            dsq.async = true;
            dsq.src = '//' + disqus_shortname + '.disqus.com/embed.js';
            (document.getElementsByTagName('head')[0] || document.getElementsByTagName('body')[0]).appendChild(dsq);
        }());
    </script>

<!-- utterances Comments --><!-- hexo-inject:begin --><!-- Begin: Injected MathJax -->
<script type="text/x-mathjax-config">
  MathJax.Hub.Config({"tex2jax":{"inlineMath":[["$","$"],["\\(","\\)"]],"skipTags":["script","noscript","style","textarea","pre","code"],"processEscapes":true},"TeX":{"equationNumbers":{"autoNumber":"AMS"}}});
</script>

<script type="text/x-mathjax-config">
  MathJax.Hub.Queue(function() {
    var all = MathJax.Hub.getAllJax(), i;
    for(i=0; i < all.length; i += 1) {
      all[i].SourceElement().parentNode.className += ' has-jax';
    }
  });
</script>

<script type="text/javascript" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.1/MathJax.js">
</script>
<!-- End: Injected MathJax -->
<!-- hexo-inject:end -->

</body>
</html>
